Immagina un mondo in cui l'intelligenza artificiale non si limita a riconoscere un tramonto, ma lo dipinge dal nulla. Questo rappresenta il cambiamento di paradigma rispetto ai modelli discriminativiβche si concentrano sul calcolo della probabilitΓ $p(output|input)$ per etichettare i dati esistentiβverso il vasto campo dell'Intelligenza Artificiale Generativa. Stiamo superando il concetto di delimitazione del passato per modellare il vero e proprio distribuzione sottostante dei dati.
Definire il Paesaggio Architetturale
La nostra tassonomia Γ¨ dominata da tre strategie matematiche distinte, ognuna delle quali offre vantaggi unici per sintesi multimodale e sintesi di immagini:
- Reti Avversariali Generative (GANs): Un duello ad alto rischio tra due reti neuraliβil generatore (il falsario) e il discriminatore (l'investigatore). Questo interazione avversariale obbliga il generatore a creare contenuti sempre piΓΉ indistinguibili.
- Modelli di Diffusione: Un processo di trovare ordine nel caos. Questi modelli imparano aggiungendo e rimuovendo iterativamente rumore dai dati, padroneggiando infine la capacitΓ di plasmare rappresentazioni robuste da semplice rumore statico.
- Transformers Autoregressivi: Gli architetti delle sequenze. Modelli come il Generative Pretrained Transformer (GPT) funzionano prevedendo il prossimo token basandosi sul contesto di tutto ciΓ² che Γ¨ preceduto, creando narrazioni e strutture coerenti su lunghe distanze.
Sinergia Architetturale
I progressi moderni raramente utilizzano un singolo pilastro in isolamento. Sistemi come Stable Diffusion usano un Transformer per comprendere il tuo prompt testuale e un Diffusione processo per manifestare i pixel visivi, spesso sfruttando le efficienze dello spazio latente trovate in Autoencoder Variazionali (VAEs).